Mas afinal, o que é Hadoop?
O Hadoop é o nome do núcleo principal de uma plataforma para trabalhar com Big Data, este núcleo pode ser executado em um servidor de internet chamado Apache, que é responsável por executar e controlar o ambiente que o Hadoop está trabalhando. Por sua vez, o Apache é uma ferramenta que trabalha em cima do sistema operacional Linux, famoso por ser gratuito e também por possuir muitas empresas trabalhando para adequar as funcionalidades para chegar a um trabalho cada vez mais profissional.
O Hadoop sozinho não faz muita coisa, ele precisa de APIs (Application Programming Interface), programas que interagem através de troca de informação com o núcleo principal, satélites que ajudam nas principais tarefas de uma plataforma. Existem APIs que se encarregam de fazer o trabalho para movimentar dados entre uma base de dados que você possui e o Hadoop.
Tem API que trabalha no âmbito de aprendizado de máquina e pode ajudar na sua tomada de decisão, aprendendo com métodos estatísticos o comportamento dos seus usuários. Outra API que é amplamente utilizada é responsável por agendamento de tarefas, que podem processar os dados que são inseridos durante o dia na plataforma de Big Data.
Fonte: Exame